新人技術者のための

# ロジカル・ シンキング

冴木 元







限られたハードウェア・リソース上で開発する組み込みシステ ムにおいて、最適化設計を実施して求められる性能を確保する ことは必要不可欠な作業である。今回は、CPUの演算量を減 らすことにより性能を確保する方法について解説する.

(編集部)

Fさんは、今度発売する新しい携帯ゲーム機の開発に携 わっています.このゲーム機は「3D グラフィックスの立体 画像がきめ細かくてきれいであること」を売りにしようと していました.

しかし、開発も終盤にさしかかったところで、思わぬ事 態が生じました.画面の動きがトロトロと遅いのです.こ れでは、迫力ある画像を楽しむどころか、描画を待つ時間 のイライラの方が大きく、とても商品として売れそうにあ りません.

さらに,場合によっては,プレイ中にゲーム自体がハン グアップしてしまうこともあると分かりました. どうやら, 処理速度がリアルタイムでは間に合わず、システム全体が 動かなくなってしまうのが原因のようでした.元凶は3D グラフィックスなのではないか,とすぐに疑われました. 3D画像は,ポリゴンと呼ばれる小さな三角形で物体の表 面を覆うようにして表現します.このポリゴンの数を増や せば増やすほど画像はきれいになりますが,計算量が増え るため, その分描画に時間がかかるようになります.

処理量を費やす部分を切り分けていった結果,まず,3D 描画を行うライブラリ関数の性能が不十分であり、最適化 を行う余地があることが分かってきました.また,3D画 像処理を行うビデオ・チップそのものの性能が不十分であ ることも分かりました、どのビデオ・チップを採用するか に当たっては, 当然各社のベンチマークをとって評価した のですが,評価方法に問題があったようです.そのため, 評価時の成績と実際にシステムを組み上げたときの処理性 能とでは、かなり差があるらしいことが分かりました、

そうはいっても、今からビデオ・チップを取り換えて開 発し直すわけにはいきません. 結局,3D 描画ライブラリ の最適化でなんとかすることになってしまいました.

ゲームの作り自体を変更して3Dグラフィックスの描画 を簡素化する手はありそうですが,この手段を用いると商 品価値に響いてしまいます.また,そもそも各ゲーム・メ ーカはある程度開発を進めてしまっており、今さら後には 引けません.Fさんたちは苦しい立場に立たされてしまい ました注1.

#### ● 古くて新しい「最適化」

さて,ここに挙げた例は多少誇張されており,実際にこ こまで切羽詰まってから性能(処理速度とメモリ使用量)の 問題がクローズアップされることはまれであると思われま す.とはいうものの,組み込みシステムの開発において, 性能がしばしば問題となることは事実です.多少まし(?) な開発であっても,開発が終盤にさしかかってから処理量 をくっている「犯人探し」が始まるケースなら,枚挙にいと

注1:現在の組み込みシステム開発では,3Dグラフィックスは専用のハー ドウェア・アクセラレータを用いて,大規模なライブラリ環境を使い こなすのが一般的である. 本文中で解説した最適化のテクニックが必 ずしもそのまま使えるわけではないので、注意していただきたい、

KeyWord

最適化設計,当たり前品質,アセンブリ言語,LOAD,STORE,レジスタ,ソフトウェア・パイプライン



#### 図1 組み込みシステムは性能が万全で当たり前

テレビ電話の組み込みソフトウェアの例.使用する CPU の動作周波数が 300MHz, メモリ・サイズが1.5Kバイトだとしたら, ソフトウェアをすべ て集めたときにこの範囲に収まるように作らなければならない. これが出来 なければ動かないので,商品価値はゼロ.

まがないように思います.

性能問題,裏を返せば「いかにして最適化するか」とい う, 古くて新しい問題が今回のテーマです.

#### ● 性能は「当たり前品質」

最初に注意しなければならないのは、組み込みシステム における「性能」とは,多くの場合,備えていて当然(製品 が備えるべき最低限の品質である)と認識される性質のも のであるということです. 例えば, 性能を満たしていれば 1,000万円で売れるモジュールも,性能が不十分なら500万 円にもなりません. それどころか,0円になりかねません (図1). 一般的な用語で言い換えると, 性能は「魅力的品 質」ではなく、「当たり前品質」であるといえます注2.

ソフトウェアは本来, CPU の動作周波数とメモリの大き さの制約を受けるため,処理速度とメモリ使用量にはおの ずから限界があります.このこと自体はパソコンで動くア プリケーション・ソフトウェアなどでも変わりはないので すが,パソコンのCPUやメモリは大抵の場合十分にある ので,実際の開発でシビアに性能が問われることはそれほ ど多くないように思います.

しかし、組み込みソフトウェアの開発では、ハードウェ ア・リソースがぎりぎりであることがほとんどです.その



#### 図2 最適化の流れ

最適化するには、その前提として、「正しく動く組み込みモジュール」が存在 しなければならない、そして最適化段階のデバッグでは、「正しく動くか」に 加えて、「速く小さく作れたか」を考える必要がある、

ため、組み込みソフトウェア・モジュールの開発において は、開発の最初から性能問題を意識する必要があります。 最初に全体の工程を考える際に,最適化のフェーズを設け るのはもちろんのこと,後工程での最適化がスムーズに進 むように考慮して設計しておく必要があります.

#### ● 最適化は正しく動くのが大前提

もう一つ注意が必要なのは,最適化というのはあくまで も「仕様通り正しく動くモジュールがある」ことが前提とな る,ということです(図2).つまり,最適化をかける以前 に, 仕様通り動くモジュールが出来上がっている必要があ ります. そして, 最適化した後にも, この品質が損なわれ るようなことがあってはなりません.たとえ処理速度が上 がっても、その代わりに仕様通り動かなくなってしまった のであれば,最適化とは呼べません(単にバグを埋め込ん だことになってしまう).

従って、最適化のためには、優れた最適化設計の考え方 が必要なのはもちろんのこと, 品質劣化を防ぐための適切 なテスト・ケースが必要となります.

#### ● ボトルネックはCPU? それともメモリ?

それでは、ここから最適化設計の考え方を解説していき ます.「最適化」という言葉は,処理速度の向上とメモリ使 用量の削減の両方を意味するものですが,ここでは主とし て,処理速度の向上に重点を置いて解説します.

最適化設計で重要となるのは、ボトルネックとなるもの が何かをあらかじめ見抜いておいて、そのために必要な対 策をあらかじめ考えておくことです、ボトルネックとなり うるものは,大きく分けると,次の二つのいずれかです.

1) CPU **の演算量** 

#### 2)メモリのアクセス速度

注2: JIS Z9901-1991の定義によると,「当たり前品質」とは,製品が当然備 えるべき最低限の品質であり、不十分であるとユーザに不満足感を与 える.一方,「魅力的品質」とは,ユーザが製品自体に魅力を感じ満足 感を持つ品質を指す.





#### 図3 重い演算処理の実装方法がポイント

オーディオ系のコーデックなどは、処理量を費やす演算部分をいかにして最 適化するかがポイントとなる. 例えば, 積和演算がそれに当たるわけだが, 開発に用いる CPU のアーキテクチャに照らして , どのように実装すると高 速になるかを理解する.

1)は演算処理自体が多いために,効率の悪い命令で実装 していると,処理速度が遅くなってしまうケースです.具 体的には、音声系のコーデック処理などで問題となります、 これらは,積和演算のような重い処理でループが組まれてい るため,効率の悪い命令で実装してしまうと,無駄な処理量 がループの回数分だけかさんでしまうことになります(図3). 逆に,2)のようにメモリのアクセス速度がボトルネック になるのは, 演算処理自体の重さよりも, 扱うデータ量が 大きすぎてメモリ上に配置できない場合です.これは,画 像処理などでよくあるケースです.

この連載で何度か述べてきたことですが, CPU コア内部 のメモリ(内部メモリ)はアクセス速度が速いのですが,大 きさが限られています.そのため,あらゆるデータをそこ に配置できるわけではありません.画像処理のように大き なデータを扱う場合は、それらをすべて内部メモリに配置 できるわけではないので、外部メモリに配置することにな ります.しかし,外部メモリは内部メモリに比べて圧倒的 にアクセス速度が遅いため、これをいかにして回避するの かが問題となるのです.

今回は,1)のケース, すなわち CPU の演算量を削減す ることによって最適化を図るケースについて、具体的な方 針を述べていくことにします.

#### ● 演算速度の向上

CPU の演算量がボトルネックとなるケースの最適化方針 を,図4に示します.演算処理が重いわけですから,ポイ ントとなるのは、「仕様を満たす機能の実装をいかにして



図4 処理速度向上のためのアプローチ

すべての最適化がアセンブリ記述で解決するものではない. メモリの使い方 を工夫しなければならないこともある.アセンブリ記述による最適化は,コ ンパイル結果の流用から始めてハンド・アセンブルに移るとスムーズ.

効率の良い命令に置き換えるのか」です.そのため,最適 化の工程においては、C言語のような高級言語で実装され たモジュールをアセンブリ言語などの低級言語に置き換え て実装することが求められるようになります.

組み込みシステムにおけるコンパイラの生成効率は近年 飛躍的に向上しています. とはいえ, CPU のアーキテクチ ャによっては,コンパイラの生成効率に限界があることが あります. そのため, プログラマがコンパイラに代わって 最適なアセンブリ・コードを書く必要が生じることがあり ます.

#### ● まずはコンパイル結果の流用から

さて、「効率的なアセンブリ・コードを書く」といっても、 初心者の場合には,アセンブリ言語で一からコーディング するのはなかなか難しいと思います.アセンブリ言語は, C言語のような高級言語とはコーディングのやり方がかな り異なります.ましてや,最近の組み込み開発で用いられ る CPU は,一昔前のものと異なり,アーキテクチャが複 雑です.従って,命令体系を理解して使いこなすには,な かなか敷居が高い面もあるでしょう.

そこで,初心者が最適化実装をこなすに当たっては,ま ずはコンパイル結果の改造から着手することをお勧めしま す.まず,コンパイラにアセンブル結果を生成させて,そ れを流用することから始めるのです、そして慣れてきたら、 今度は一からアセンブリ言語でコーディングすることにし ます. すなわち,

#### 1) C言語などでコーディング



図5 アセンブリ言語によるコーディング

コンパイラが生成するアセンブリ・コードの改造から始める、コンパイル結 果の流用では効率の良いコードが書けないモジュールもあるので、一からア センブリ言語で書く必要も生じる、開発効率や技術の習熟度を考えて工夫す るとよい.

#### 2) コンパイル結果のアセンブリ・コードを改造

#### 3) アセンブリ言語で一からコーディング

という順番で最適化を進めていきます(図5).これは技術 を順に習得していく上からも, 開発効率の上からも望まし いと思います. もちろん, 1)の段階で, 仕様を満たすよう に実装する必要があるのは言うまでもありません.

初心者から見ると, CPU の命令解説書の記述から最適な コーディングへとつなげていくのは、なかなか難しいもの があると思われます、そんなときはまず、コンパイル結果 のアセンブリ言語を眺めて、その無駄な記述を見破れるよ うになることで,最適化実装への第1歩とすることができ ます.

### ● コンパイル結果の無駄の見抜き方

では次に,コンパイル結果の無駄を見抜くコツについて 考えます.

アセンブリ言語による最適化実装というのは, 当然のこ とながら個々のCPU のアーキテクチャに依存したものとな ります. そのため, 個々の最適化技術は専門技術性が高く, 一般論を述べるには難しい面があります.

しかし、「コンパイラがコンパイルした結果を流用する」



図6 アセンブリ言語は演算の前後にLOAD/STORE が必要

アセンブリ言語は高級言語と違って、メモリとレジスタ間でのデータの移動 を意識しないとコーディングできない. データはメモリ上に存在するのに対 して,演算はレジスタ上で行うからである.

という前提に立てば、その無駄を省いて最適化を図る際に は,個々のCPUのアーキテクチャに依存しない一定のコ ツが存在します.

コンパイル結果の無駄を見抜く方法というのは,ある 個所に注目すれば実は意外とシンプルなものなのです. そ れは、

#### 1)余計なLOAD/STORE 命令を省く

#### 2)ループの外に命令を追い出す

というものです.順に解説していくことにしましょう.

アセンブリ言語のような低級言語とC言語のような高級

#### ● 余計なLOAD/STORE 命令を省く

言語について、コーディングに対する考え方の違いを挙げ ればきりがないでしょう、しかし、最適化する際にポイン トとなるのは、「アセンブリ言語はメモリからレジスタにデ ータを移動させないと演算できない」という点です(図6). データはメモリに格納されているのに対して,アセンブ リ言語の演算命令はレジスタ上で行います、メモリからレ ジスタにデータを移動させることをLOAD,逆にレジスタ からメモリにデータを移動させることをSTORE と呼びま す.アセンブリ言語のコーディングでは,必ずこのLOAD とSTOREを演算の前後で行っています注3.従って,コン パイル結果の無駄を見抜く一つ目のポイントは、この LOAD/STORE に無駄がないかどうかに着目することです (図7).

#### ● レジスタの有効活用が最適化のポイント

ここで、「レジスタの数には上限があるから、どんな場

注3:命令体系によってはLOADとSTOREをともにMOVE命令で記述す る場合もある. コーディングの際に用いるニーモニック(疑似命令)の 呼び方は個々のCPUによって異なるので注意していただきたい.

# ロジカル・シンキング品





図7 演算の前後のLOAD/STORE に着目

レジスタ上で演算を続けられるのであれば、メモリ-レジスタ間のデータの 移動は無駄である.従って,演算の前後にLOAD/STOREが繰り返されてい れば,最初と最後に1回ずつLOAD/STOREにまとめればすむことになる.

合でもLOAD/STORE が省けるわけではないはずだ」と気 付いた方がいるかもしれませんが、全くその通りです、ア センブリ言語レベルでの最適化というのは、「CPUのレジ スタをいかに無駄なく活用するか」ということの裏返しで もあるのです.

メモリ・レジスタ間のデータの移動を削減して演算を行え ば,演算の途中結果などはすべてレジスタに保持しておか ねばならないことになります. CPU が持っているレジスタ の数には上限があるため、レジスタの数があふれてしまえ ば,それ以上はLOAD/STOREが削減できず,メモリ・ アクセスが必要ということになります.従って,数に限り のあるレジスタをうまく使い回して余計なLOAD/STORE を演算の間に挟まずにコーディングすることが、アセンブ リ言語レベルでの最適化のコツです.

余計なLOAD/STORE命令を削減することは、とりも なおさず, CPU に用意されているレジスタを無駄なく使う ことにつながる、ということに注意してください、

#### ● ループの外に命令を追い出す

コンパイル結果の無駄を見抜く方法の二つ目は ,「ルー プの中に注目する」ということです( 図8). ループの中の 処理は、ループの中の演算量にループ回数を掛け算したも のが全体の処理量となります.そのため,ループの中の処 理は削減効果が高いので、どのようなアーキテクチャの CPU を用いて実装する場合でも、ループの中の処理をいか にして減らすかというのが,最適化に当たっては常にポイ



図8 ループの中は削減効果が高い

ループ中の演算が20サイクルあったとする.ループ回数が200回なら.そ の部分の処理量は20 x 200 = 4000 サイクルとなる. ループ中の処理は削減 効果が高いので,最適化する際にはまず,ループの中に注目する.



図9 ループの中に注目

コンパイル結果の無駄を見抜くには、ループ中の無駄な命令をループの外に いかにして追い出すかに注目するとよい、ループの外でも実装できる命令は、 なるべく外に追い出すこと. 具体例を図10, 図11に挙げた.

ントとなります(図9).

ループの中の処理を工夫によって減らせるものとしては、 例えば,テーブルのアドレス計算などがあります.テーブ ルのようにデータが隣り合わせになっている場合、データ をループの中で次々にLOADする場合は,

先頭アドレスのLOAD

オフセットの計算

先頭アドレス+オフセットの加算

で求めたアドレスからレジスタへLOAD

という一連の処理を行うことになります.

コンパイル結果を眺めたとき、これらがすべてループの 中で行われていたとしたら、最適化の余地ありといえます (図10). これを最適化した具体例を図11に示します. LOAD対象のデータが隣り合っている事実に着目すること によって,最適化のヒントが得られます.図10ので求

# 図10 最適化前のアドレス計算

テーブルのように隣り合わせのデータをループの中で次々とLOADする場 合, ~ の処理を順にこなすことになる.これらがすべてループの中に あったら非効率的である.いかにして最適化するか?





#### 図11 最適化後のアドレス計算

隣り合わせのデータを順にLOAD するなら,オフセット値は一つずつイン クリメント(増分)すれば求められることになる.ここに注目して, のように命令を書き換える.図10と比較すると,ループ中の命令は四つ から二つに削減される.

める先頭アドレス+オフセットという値は,LOADの度に 1ずつ増えていくだけです.それならば,このアドレス値 をループの外でレジスタに格納しておいて,ループの中 でインクリメントしていけばよい,ということになるで しょう.

図10と図11を見比べてみてください.この工夫で,ル ープの中の命令が四つから二つに減りました.

#### ● 最適化にはCPUアーキテクチャの理解が必要

ここまで、コンパイル結果の無駄を見抜いて改造する観 点からアセンブリ言語のコーディングを解説してきました. しかし、「コンパイル結果の流用」というアプローチのみ では限界もあります. アセンブリ言語と高級言語ではデー タ構造の持ち方が根本的に異なるため,演算によっては, 流用がきかないものもあるからです. 例えば,信号処理の フィルタ演算などがそれに当たります. そのような場合に は、関数をまるごと一つアセンブリ言語でコーディングす る必要が生じます.

最適なアセンブル・コードを書くには、なによりもまず、 CPU アーキテクチャの特徴をよく理解する必要がありま す.そして,自分が実装しようとしている演算を高速化で きるような命令が CPU に用意されていないか, CPU のマ

ニュアルをよく読んで工夫する必要があります.

組み込みシステム用に開発された CPU アーキテクチャ は、処理速度を高めるためにいろいろな工夫を施してあり ます.その特徴を把握することが大切です.

演算効率を高めるために CPU アーキテクチャが採る方法 は,大きく分けて次の二つがあります(実際には,これら の組み合わせでCPUは実装されている).

#### 1) ソフトウェア・パイプライン

ソフトウェア・パイプラインとは,一連のCPUの命令 を並列化して、1サイクルにいくつもの命令を実行できる ようにすることです.ロード命令 乗算命令 加算命令 ストア命令という命令を繰り返すのであれば,命令を一つ 一つ処理するのではなく,個々の命令を並列化してしまっ て1サイクルで複数の演算をこなしてしまえば,処理速度 は向上することになります(図12). 従って,コンパイラ がもし命令のソフトウェア・パイプライン化を十分に行っ ていないのであれば、プログラマがアセンブル・コードを 書き換える必要があります.

#### 2)専用命令の実装

専用命令の実装とは、一つの演算器で複数の命令を同時 に処理することができるような回路を CPU が内蔵する場合 を指します. 例えば, 積和算を同時に二つ実行できる Dual







#### 図12 ソフトウェア・パイプラインの例

LOAD . ADD , MPY , STORE と一つ一つ実行するよりも , 並列化して次々 と実行した方が処理速度は向上する.1サイクルに複数の命令を実行できる 機構を大抵のCPUは持っているので,いかにして多くの命令をソフトウェ アでパイプライン化できるかが処理速度向上のポイントとなる.

Mac 命令が CPU に実装されている場合などがそれに当た ります(図13).

注意しなければいけないのは,このような専用命令が CPU のアーキテクチャには用意されていても, コンパイラ はそれを生成してくれないことがむしろ多いということで す. その場合は, コンパイラの生成コードとC言語の実装 をよく見比べて,効率的な命令をコンパイラが期待通り生 成してくれているかをチェックする必要があります.

そして、「自分ならこう書く」というコードをコンパイラ が生成してくれていないのであれば、プログラマがアセン ブリ言語を自分で書く必要があるということです.

## ● 最適化ノウハウの汎用性について

CPU の命令を駆使して最適化を行う知識は,専門技術性 が高く、個々のCPUに固有のものと従来は考えられてき ました.このこと自体は否定の余地がないようにも思えま す.しかし,組み込みシステムの開発環境において,技術 者たちが培ってきた技量が応用のきかないその場限りのも のだ、と考えるのはいかにももったいない気がします、な ぜなら、変化の激しい組み込みシステムの開発の現場では、 次から次へと新しいアーキテクチャに対応するように迫ら れることが多いからです.

一つの例として,自動車に組み込まれる車載システムに ついて考えてみましょう. 自動車は, カー・ステレオやカ ー・ナビゲーションのような運転者の目に見えるものから、 エンジン制御のような目に見えないものも含めて,1台の 車にさまざまな CPU が積み込まれています. 現在では,普 通の車でも60個程度,多いものだと100個ものCPUが組 み込まれていると言われます.その中で最適化がシビアに 問われるものがどの程度あるのかは筆者には分かりません



#### 図13 専用命令の例

一つの演算回路が二つの積和算を一度に行えるのが Dual Mac 命令である. このような専用命令は,使えるレジスタやメモリに制限があることが多いの で,制約を満たすようにアセンブリ言語を書くこと.また,そもそもこの命 今をコンパイラが生成してくれないこともしばしばある.

が, それぞれがエキスパートのみが知る世界で, 相互に連 絡があり得ないとしたら、寂しい限りのような気がします。

技術者が自分の専門性を深めることは非常に重要です. しかし同時に、自分の技術がどの程度の汎用性を持ちえる のかを考えることも時には必要だと思います、誇り高きべ テラン・エンジニアでも,自分が長年親しんできたアーキ テクチャが、気が付いたらお払い箱になっていることもあ るかもしれません、そうでなくても、やがては管理者とし て後進の指導に当たらなければならないときに,自分の経 験したことだけに閉じた昔話しかできないのだとしたら、 開発現場の足をひっぱることになるでしょう.

最適化のように、一見応用のきかない実装依存の知識で あっても、汎用化させるとしたらどのようなことが考えら れるのかを問うてみるのは,重要であるように思います.

#### さえき・はじめ

#### <筆者プロフィール>-

冴木 元.システム・エンジニア.「ゴルフのスイングをしながら しゃべるサラリーマン」というのは, ある種典型的な行動パター ンと思われるのだが,なぜか筆者の周囲ではお目にかかることが 少ない. ゴルフをしないのは単に金がもったいないからか? 世の 中には「ゴルフをするところを見れば人間が分かる」と言う人すら いるらしいのだが、いったい彼らは、何を見てそう言っているの だろう?